home *** CD-ROM | disk | FTP | other *** search
/ Software Vault: The Gold Collection / Software Vault - The Gold Collection (American Databankers) (1993).ISO / cdr49 / pgp23src.zip / CHARSET.C < prev    next >
C/C++ Source or Header  |  1993-05-09  |  7KB  |  196 lines

  1. /*
  2.  * charset.c
  3.  *
  4.  * Conversion tables and routines to support different character sets.
  5.  * The PGP internal format is latin-1.
  6.  */
  7.  
  8. #include <stdio.h>
  9. #include <string.h>
  10. #include "usuals.h"
  11. #include "language.h"
  12. #include "charset.h"
  13. #include "system.h"
  14.  
  15. #ifndef NULL
  16. #define    NULL    0
  17. #endif
  18.  
  19. #define UNK    '?'
  20.  
  21. static unsigned char
  22. intern2ascii[] = {  /* ISO 8859-1 Latin Alphabet 1 to US ASCII */
  23. UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK,  
  24. UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK, UNK,  
  25.  32,  33,  99,  35,  36,  89, 124,  80,  34,  67,  97,  34, 126,  45,  82,  95,  
  26. 111, UNK,  50,  51,  39, 117,  45,  45,  44,  49, 111,  34, UNK, UNK, UNK,  63,  
  27.  65,  65,  65,  65,  65,  65,  65,  67,  69,  69,  69,  69,  73,  73,  73,  73,  
  28.  68,  78,  79,  79,  79,  79,  79, 120,  79,  85,  85,  85,  85,  89,  84, 115,  
  29.  97,  97,  97,  97,  97,  97,  97,  99, 101, 101, 101, 101, 105, 105, 105, 105,  
  30. 100, 110, 111, 111, 111, 111, 111,  47, 111, 117, 117, 117, 117, 121, 116, 121 
  31. };
  32.  
  33. static unsigned char
  34. intern2cp850[] = {  /* ISO 8859-1 Latin Alphabet 1 (Latin-1) to IBM Code Page 850 */
  35. 186, 205, 201, 187, 200, 188, 204, 185, 203, 202, 206, 223, 220, 219, 254, 242,
  36. 179, 196, 218, 191, 192, 217, 195, 180, 194, 193, 197, 176, 177, 178, 213, 159,
  37. 255, 173, 189, 156, 207, 190, 221, 245, 249, 184, 166, 174, 170, 240, 169, 238,
  38. 248, 241, 253, 252, 239, 230, 244, 250, 247, 251, 167, 175, 172, 171, 243, 168,
  39. 183, 181, 182, 199, 142, 143, 146, 128, 212, 144, 210, 211, 222, 214, 215, 216,
  40. 209, 165, 227, 224, 226, 229, 153, 158, 157, 235, 233, 234, 154, 237, 232, 225,
  41. 133, 160, 131, 198, 132, 134, 145, 135, 138, 130, 136, 137, 141, 161, 140, 139,
  42. 208, 164, 149, 162, 147, 228, 148, 246, 155, 151, 163, 150, 129, 236, 231, 152
  43. };
  44.  
  45. static unsigned char
  46. cp8502intern[] = {  /* IBM Code Page 850 to Latin-1 */
  47. 199, 252, 233, 226, 228, 224, 229, 231, 234, 235, 232, 239, 238, 236, 196, 197,
  48. 201, 230, 198, 244, 246, 242, 251, 249, 255, 214, 220, 248, 163, 216, 215, 159,
  49. 225, 237, 243, 250, 241, 209, 170, 186, 191, 174, 172, 189, 188, 161, 171, 187,
  50. 155, 156, 157, 144, 151, 193, 194, 192, 169, 135, 128, 131, 133, 162, 165, 147,
  51. 148, 153, 152, 150, 145, 154, 227, 195, 132, 130, 137, 136, 134, 129, 138, 164,
  52. 240, 208, 202, 203, 200, 158, 205, 206, 207, 149, 146, 141, 140, 166, 204, 139,
  53. 211, 223, 212, 210, 245, 213, 181, 254, 222, 218, 219, 217, 253, 221, 175, 180,
  54. 173, 177, 143, 190, 182, 167, 247, 184, 176, 168, 183, 185, 179, 178, 142, 160
  55. };
  56.  
  57. /* Russian language specific conversation section */
  58. /* Two point-to-point charset decode tables */
  59.  
  60. /* Decode single char from KOI8 to ALT-CODES, if present */
  61. static unsigned char intern2alt[] = {
  62.     0xb0, 0xb1, 0xb2, 0xb3, 0xb4, 0xb5, 0xb6, 0xb7,
  63.     0xb8, 0xb9, 0xba, 0xbb, 0xbc, 0xbd, 0xbe, 0xbf,
  64.     0xc0, 0xc1, 0xc2, 0xc3, 0xc4, 0xc5, 0xc6, 0xc7,
  65.     0xc8, 0xc9, 0xca, 0xff, 0xcc, 0xcd, 0xce, 0xcf,
  66.     0xd0, 0xd1, 0xd2, 0xf1, 0xd4, 0xd5, 0xd6, 0xd7,
  67.     0xd8, 0xd9, 0xda, 0xdb, 0xdc, 0xdd, 0xde, 0xdf,
  68.     0xd3, 0xf3, 0xf2, 0xf0, 0xf4, 0xf5, 0xf6, 0xf7,
  69.     0xf8, 0xf9, 0xfa, 0xfb, 0xfc, 0xfd, 0xfe, 0xcb,
  70.     0xee, 0xa0, 0xa1, 0xe6, 0xa4, 0xa5, 0xe4, 0xa3,
  71.     0xe5, 0xa8, 0xa9, 0xaa, 0xab, 0xac, 0xad, 0xae,
  72.     0xaf, 0xef, 0xe0, 0xe1, 0xe2, 0xe3, 0xa6, 0xa2,
  73.     0xec, 0xeb, 0xa7, 0xe8, 0xed, 0xe9, 0xe7, 0xea,
  74.     0x9e, 0x80, 0x81, 0x96, 0x84, 0x85, 0x94, 0x83,
  75.     0x95, 0x88, 0x89, 0x8a, 0x8b, 0x8c, 0x8d, 0x8e,
  76.     0x8f, 0x9f, 0x90, 0x91, 0x92, 0x93, 0x86, 0x82,
  77.     0x9c, 0x9b, 0x87, 0x98, 0x9d, 0x99, 0x97, 0x9a
  78. };
  79.  
  80. /* Decode single char from ALT-CODES, if present, to KOI8 */
  81. static unsigned char alt2intern[] = {
  82.     0xe1, 0xe2, 0xf7, 0xe7, 0xe4, 0xe5, 0xf6, 0xfa,
  83.     0xe9, 0xea, 0xeb, 0xec, 0xed, 0xee, 0xef, 0xf0,
  84.     0xf2, 0xf3, 0xf4, 0xf5, 0xe6, 0xe8, 0xe3, 0xfe,
  85.     0xfb, 0xfd, 0xff, 0xf9, 0xf8, 0xfc, 0xe0, 0xf1,
  86.     0xc1, 0xc2, 0xd7, 0xc7, 0xc4, 0xc5, 0xd6, 0xda,
  87.     0xc9, 0xca, 0xcb, 0xcc, 0xcd, 0xce, 0xcf, 0xd0,
  88.     0x80, 0x81, 0x82, 0x83, 0x84, 0x85, 0x86, 0x87,
  89.     0x88, 0x89, 0x8a, 0x8b, 0x8c, 0x8d, 0x8e, 0x8f,
  90.     0x90, 0x91, 0x92, 0x93, 0x94, 0x95, 0x96, 0x97,
  91.     0x98, 0x99, 0x9a, 0xbf, 0x9c, 0x9d, 0x9e, 0x9f,
  92.     0xa0, 0xa1, 0xa2, 0xb0, 0xa4, 0xa5, 0xa6, 0xa7,
  93.     0xa8, 0xa9, 0xaa, 0xab, 0xac, 0xad, 0xae, 0xaf,
  94.     0xd2, 0xd3, 0xd4, 0xd5, 0xc6, 0xc8, 0xc3, 0xde,
  95.     0xdb, 0xdd, 0xdf, 0xd9, 0xd8, 0xdc, 0xc0, 0xd1,
  96.     0xb3, 0xa3, 0xb2, 0xb1, 0xb4, 0xb5, 0xb6, 0xb7,
  97.     0xb8, 0xb9, 0xba, 0xbb, 0xbc, 0xbd, 0xbe, 0x9b
  98. };
  99.  
  100. /* End of Russian section */
  101.  
  102. /*
  103.  * Most Unixes has KOI8, and DOS has ALT_CODE
  104.  * If your Unix is non-standard, set CHARSET to "alt_codes"
  105.  * in config.txt
  106.  */
  107.  
  108. #ifndef    DEFAULT_CSET
  109. #define    DEFAULT_CSET    "noconv"
  110. #endif
  111. #ifndef    DEFAULT_RU_CSET
  112. #define    DEFAULT_RU_CSET    "noconv"
  113. #endif
  114.  
  115.  
  116. int CONVERSION = NO_CONV;      /* None text file conversion at start time */
  117.  
  118. unsigned char *ext_c_ptr;
  119. static unsigned char *int_c_ptr;
  120.  
  121. #ifdef MSDOS
  122. char charset[64] = "cp850";
  123. #else
  124. char charset[64] = "";
  125. #endif
  126.  
  127. void
  128. init_charset(void)
  129. {
  130.     ext_c_ptr = NULL;    /* NULL means latin1 or KOI8 (internal format) */
  131.     int_c_ptr = NULL;
  132.  
  133.     if (charset[0] == '\0')
  134.     {    /* use default character set for this system */
  135.         if (strcmp(language, "ru") == 0)
  136.             strcpy(charset, DEFAULT_RU_CSET);
  137.         else
  138.             strcpy(charset, DEFAULT_CSET);
  139.     }
  140.     else
  141.         strlwr(charset);
  142.  
  143.     /* latin-1 and KOI8 are in internal format: no conversion needed */
  144.     if (!strcmp(charset, "latin1") || !strcmp(charset, "koi8") ||
  145.         !strcmp(charset, "noconv"))
  146.         return;
  147.  
  148.     if (!strcmp(charset, "alt_codes"))
  149.     {    ext_c_ptr = intern2alt;
  150.         int_c_ptr = alt2intern;
  151.     } else if (!strcmp(charset, "cp850"))
  152.     {    ext_c_ptr = intern2cp850;
  153.         int_c_ptr = cp8502intern;
  154.     } else if (!strcmp(charset, "ascii"))
  155.     {    ext_c_ptr = intern2ascii;
  156.     } else
  157.     {
  158.         fprintf(stderr, PSTR("Unsupported character set: '%s'\n"), charset);
  159.     }
  160. }
  161.  
  162. char
  163. EXT_C(char c)
  164. {
  165.     if (c > '\0' || !ext_c_ptr)
  166.         return c;
  167.     return ext_c_ptr[c & 0x7f];
  168. }
  169.  
  170. char
  171. INT_C(char c)
  172. {
  173.     if (c > '\0' || !int_c_ptr)
  174.         return c;
  175.     return int_c_ptr[c & 0x7f];
  176. }
  177.  
  178. /*
  179.  * to_upper() and to_lower(), replacement for toupper() and tolower(),
  180.  * calling to_upper() on uppercase or to_lower on lowercase characters
  181.  * is handled correctly.
  182.  * 
  183.  * XXX: should handle local characterset when 8-bit userID's are allowed
  184.  */
  185. int
  186. to_upper(int c)
  187. {
  188.     return (c >= 'a' && c <= 'z' ? c - ('a' - 'A') : c);
  189. }
  190.  
  191. int
  192. to_lower(int c)
  193. {
  194.     return (c >= 'A' && c <= 'Z' ? c + ('a' - 'A') : c);
  195. }
  196.